智能论文笔记

Gemino: Practical and Robust Neural Compression for Video Conferencing

Vibhaalakshmi Sivaraman , Pantea Karimi , Vedantha Venkatapathy , Mehrdad Khani , Sadjad Fouladi , Mohammad Alizadeh , Frédo Durand , Vivienne Sze

分类：计算机视觉

2022-09-21

当网络条件恶化时，视频会议系统的用户体验差，因为当前的视频编解码器根本无法在极低的比特率下运行。最近，已经提出了几种神经替代方案，可以使用每个框架的稀疏表示，例如面部地标信息，以非常低的比特率重建说话的头视频。但是，这些方法在通话过程中具有重大运动或遮挡的情况下会产生不良的重建，并且不会扩展到更高的分辨率。我们设计了Gemino，这是一种基于新型高频条件超分辨率管道的新型神经压缩系统，用于视频会议。 Gemino根据从单个高分辨率参考图像中提取的信息来增强高频细节（例如，皮肤纹理，头发等），为每个目标框架的一个非常低分辨率的版本（例如，皮肤纹理，头发等）。我们使用多尺度体系结构，该体系结构在不同的分辨率下运行模型的不同组件，从而使其扩展到可与720p相当的分辨率，并且我们个性化模型以学习每个人的特定细节，在低比特率上实现了更好的保真度。我们在AIORTC上实施了Gemino，这是WEBRTC的开源Python实现，并表明它在A100 GPU上实时在1024x1024视频上运行，比比特率的比特率低于传统的视频Codecs，以相同的感知质量。

translated by 谷歌翻译